2024
\(\mathbf{X}_{nxp}= (\mathbf{x}_1, \mathbf{x}_2\ldots \mathbf{x}_p)= \begin{pmatrix} x_{11} & x_{12} & \ldots x_{1p}\\ x_{21} & x_{22} & \ldots x_{2p}\\ \vdots &\vdots & \ddots & \vdots\\ x_{n1} & x_{n2}& \ldots x_{np} \end{pmatrix}\)
la i-ésima observación se denota como:
\[\begin{align} x_i &= \begin{pmatrix} x_{i1} \\ x_{i2} \\ \vdots \\ x_{ip} \end{pmatrix} \end{align}\]\[\begin{align} \mathbf{X}&= \begin{pmatrix} x_{1}^T \\ x_{2}^T \\ \vdots \\ x_{n}^T \end{pmatrix} \end{align}\]
La j-ésima variable se denota como:
\[\begin{align} \mathbf{x}_j &= \begin{pmatrix} x_{1j} \\ x_{2j} \\ \vdots \\ x_{nj} \end{pmatrix} \end{align}\]
\(y_i\) es la i-ésima observación de la variable que queremos predecir..
\[\begin{align} y &= \begin{pmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{pmatrix} \end{align}\] También utilizaremos \(Y\) para representar la variable de respuesta.
Los datos observados \(D= \{(x_i, y_i)\}^n=\{(x_1,y_1), (x_2, y_2), \ldots (x_n,y_n)\}\) con \(x_i\) un vector de longitud \(p\).
Variable de interés \(Y\) y un conjunto de \(p\) predictores diferentes \(X= (x_1, x_2,... x_p)\).
Sea \(X \in R^p\), \(Y\) puede ser numérica o categórica dependiendo el problema y \(Pr(Y, X)\) la distribución de probabilidad conjunta.
Nos interesa estudiar la relación entre \(Y\) y \(\mathbf{X}=(x_1, x_2,... x_p)\),
\[Y = f(\mathbf{X}) + \epsilon\]
Componente Determinístico \((Y , f (X ))\): Describe comportamiento medio
Componente aleatorio \((ε)\): Describe desviaciones del comportamiento medio
El aprendizaje estadístico refiere a un conjunto de aproximaciones para estimar \(f(X)\)
\[Y = f(\mathbf{X}) + \epsilon\]
El aprendizaje estadístico da un marco para construir modelos a partir de datos.
Nos interesa estudiar la relación entre \(Y\) y \(\mathbf{X}\),
\[Y = f(X) + \epsilon\] Tipos de problemas:
Supervisado, la variable de respuesta \(y_i\) disponible para todas los \(x_i\) Problemas de regresión (\(y_i\) es numérica) o clasificación (\(y_i\) es categórica)
No supervisado, \(y_i\) no está disponible para ningún \(x_i\)
Semi supervisado, \(y_i\) disponible para algunas \(x_i\)
Importante identificar el tipo de problema de aprendizaje nos enfrentamos para identificar posibles métodos.
Valuación de bosques:
Uso de Plataformas y desempeño académico
Otros tipos de aprendizaje estadístico…
Este curso: aprendizaje supervisado, algunos métodos.
Predicción
En muchas situaciones \({\mathbf X}\) puede estar disponible, pero \(Y\) puede ser difícil de recolectar.
Entonces nos gustaría usar \({\mathbf X}\) para predecir un nuevo valor de \(Y\).
No estamos muy preocupados si \(f\) es difícil de entender solo que haga un buen trabajo para predecir nuevos valores de \(Y\). \[\hat Y =\hat f(\mathbf{X})\]
\(\hat Y\) predicción para \(Y\).
\(\hat f(\mathbf(X))\) estimador de \(f\).
En este contexto usualmente no importa la forma de \(f\) (black box), sino la precisión de las predicciones del modelo.
Inferencia
Muchas veces estamos interesados en entender la asociación entre \(Y\) y \(X\), en este contexto el objetivo es estimar \(f\) pero no necesariamente obtener predicciones de \(Y\).
En este caso \(\hat f\) no puede ser una caja negra ya que queremos responder preguntas como:
¿Qué predictores están asociados con la variable de respuesta?
¿Cuál es la relación entre la variable de respuesta y cada predictor?
¿La relación de la variable de respuesta con cada predictor puede ser adecuadamente resumida con una relación lineal o la relación es más complicada?
Breiman, L., (2001) Statistical modeling: The two cultures. Statistical science.
Efron B., (2020) Prediction, Estimation, and Attribution. Journal of the American Statistical Association
Shmueli, G., (2010). To explain or to predict? Statistical science.
¿Cómo desarrollamos métodos en estadística clásica?
Partimos de preguntas de interés, las traducimos en términos de modelos estadísticos, buscamos respuesta estadística con datos observados, y volvemos a responder la pregunta inicial.
Se propone un algoritmo o modelo no-paramétrico.
Selección sistemática de modelo guiada por datos.
Error de predicción en datos nuevos.
Minimizar pérdida esperada.
Performance en simulaciones, datos reales simples/conocidos, y datos reales complejos.
Disponibilidad de la implementación.
Muchas veces se plantea que:
Explicar o predecir es la cuestión. Hay que hacer todo!
En el ejemplo de riqueza en bosques de los países:
Entender determinantes del valor de bosques
Predecir valor de bosques en todo el mundo
Comparar modelos de distinto tipo de manera sistemática
En el ejemplo de Ceibal en Inglés
Entender factores que incrementen la probabilidad de alcanzar el nivel de Inglés esperado
Predecir si un estudiante alcanza el nivel de inglés con datos hasta julio
Si solo miramos performance predictiva:
No consideramos posibles sesgos en los datos NPL sesgado.
No aprendemos de los datos: The machines learn but we don’t
Solo mirar la significación estadística:
“… algorithms are what statisticians do while inference says why they do them.” (Efron, B., Hastie, T. (2016))
Los datos son simulados de una \(f\) conocida.
Los datos son simulados de una \(f\) conocida.
Cuán preciso es \(\hat Y\) para predecir \(Y\) depende de:
Error irreducible puede ser mayor a cero porque \(\epsilon\) puede contener variables no medidas que son útiles para la predicción de \(Y\) pero como no las medimos \(f\) no las puede usar en la predicción. También podría contener variabilidad no medida.
Asumiendo que \(\hat f\) y \(\mathbf{X}\) son fijos entonces la única variabilidad está dada por \(\epsilon\). Se puede probar que:
\[\begin{align*} E(Y-\hat{Y})^2 &=& E(f({\mathbf X})+\varepsilon-\hat{f}({\mathbf X}))^2\\ &=& \underbrace{E(f({\mathbf X}) - \hat{f}({\mathbf X}))^2} + \underbrace{\mbox{Var}(\varepsilon)} \\ & & reducible + irreducible \end{align*}\]\(E(Y-\hat{Y})^2\) es el valor esperado de la diferencia al cuadrado del valor predicho y el valor verdadero de la respuesta. \(\mbox{Var}(\varepsilon)\) es la varianza del error.
La línea verde representa la verdadera \(f\). Esto es lo mejor que podemos obtener y todo el error que queda es irreducible
La línea roja representa un modelo estimado \(\hat{f}\). Este ajuste es muy similar al verdero \(f\) pero aún se puede mejorar.
Suponé que ahora usamos un modelo más sencillo, modelo lineal
El error irreducible es el que podemos mejorar produciendo el mejor modelo.
En el error irreducible asociado a fluctuaciones aleatorias de muestra a muestra no sistemáticas.
El objetivo es obtener predicciones del modelo que sean precisas para datos futuros.
Métodos paramétricos:
Asume que el modelo tiene una forma específica.
Ajustar el modelo implica estimar los parámetros del mismo.
En general se considera poco flexible.
Si los supuestos no se cumplen esperable que tengan un mal desempeño
Métodos no paramétricos:
No hay supuestos específicos.
Permite que los datos especifiquen la forma del modelo sin ser muy irregular.
Más flexible.
En general son necesarias más observaciones.
\(f({\mathbf X}) = \beta_0 + \beta_1 X_1 + ... + \beta_p X_p\)
Menos flexible
\(f({\mathbf X}) = \beta_0 + \beta_1 X_1 + \beta_2 X_1^2 + ...\)
Más flexible
Ejemplo: Regresión polinómica local ajusta un modelo lineal a muchos subconjuntos de datos.
Modelos lineales Son modelos rígidos que resultan muy buenos para interpretar resultados pero en general no suelen ser buenos para hacer predicciones.
Modelos no lineales (que son más flexibles) son complejos de interpretar, pero en general resultan ser buenos predictores, aunque debe tenerse cuidado con el sobreajuste (overfitting).
Ejemplos modelos no lineales: modelos aditivos generalizados, árboles de regresión y clasificación, redes neuronales, Bagging, Boosting.
Importante: no hay una técnica mejor que otra per se, sino técnicas que resultan más apropiadas que otras dependiendo del problema a resolver.
Hay un compromiso entre la flexibilidad e interpretabilidad de un modelo.